1 Introduction

pour le projet de Data Vizualisation, nous avons choisis comme jeu de données les buts marquées par Cristiano Ronaldo pendant sa carrière.

1.1 Source

pour obtenir ces statistiques, on a extrait ces données du ce site le script python qui fait l’extraction se trouve dans le notebook scrapGoals.ipynb et le dataset resultant est goals.csv

1.2 Description

ce dataset contient cinq colonnes, ces colonnes sont:

  • la competition

  • l’équipe de Cristiano

  • l’équipe adversaire

  • à domicile ou à l’éxterieur

  • le nombre des buts marquées dans le match.

voici l’apercu du jeu de données :

2 Nombre de buts par equipe

library(plotly)
data<-data%>%
  group_by(against)%>%
  summarise( ng = sum(number.of.goals), a = sum(home.away=="A"), h = sum(home.away=="H") )
data<-data[order(data$ng, decreasing = FALSE), c(1,2,3,4)]
p<-data%>%
  mutate(against = factor(against, against))%>%
  ggplot(aes(x = against, y = ng, text=paste("home:",h,"\naway:",a,"\n#goals:",ng), sort = FALSE))+
    xlab("Adversaire")+
    ylab("nombre des buts")+
    geom_segment( xend=1:nrow(data),  yend =1:nrow(data)*0)+
    geom_point()+
    coord_flip()
ggplotly(p, tooltip = "text")

3 Nombre des buts par competition

library(treemap)
library(d3treeR)
data <- original
p<- data%>%
  group_by(compitition, for.)%>%
  summarise(goals = sum(number.of.goals))%>%
  treemap(index =c("compitition", "for."),
          vSize = "goals", type = "index", draw = FALSE);

d3tree3(p, rootname = "Goals per competition & team")